Search results for "research problems"
showing 1 items of 1 documents
Google Books jako korpus językowy
2018
Artykuł poświęcony jest omówieniu Google Books, dostępnej przez Internet biblioteki wirtualnej, obejmującej skany 30 milionów książek. Jest to aktualnie najbogatsze na świecie źródło danych tekstowych w postaci cyfrowej. Zbiory Google Books można nazwać korpusem, ale zasadniczo różnią się one od tradycyjnych korpusów językowych. Kłopoty klasyfikacyjne wynikają z konkretnych ograniczeń, z jakimi trzeba się zmierzyć w trakcie badań. Między innymi część źródeł to wersje pełnotekstowe, a część – wersje z ograniczonym podglądem, dane bibliograficzne są nierzadko błędne, a jakość optycznego rozpoznawania tekstu, zwłaszcza w przypadku starszych tekstów, jest daleka od doskonałości. Referat omawia …